 Să începem cu AdaBoost O modalitate prin care noul predictor își poate remedia predecesorul este să acorde puțin mai multă atenție eșantioanelor de antrenament pe care predecesorul le-a montat insuficient Ca urmare, noii predictori se concentrează din ce în ce mai mult pe cazurile dificile aplică metoda AdaBoost Pentru de exemplu, la construirea unui clasificator AdaBoost, mai întâi este antrenat primul clasificator de bază (cum ar fi un arbore de decizie), care este utilizat pentru a face predicții asupra setului de antrenament Greutatea relativă a eșantioanelor de antrenament clasificate incorect de acesta este crescută Al doilea clasificatorul este antrenat deja folosind greutățile actualizate, după care este folosit pentru a face predicții asupra setului de antrenament, greutățile sunt actualizate din nou și așa mai departe Boosting”), Yoav Freund, Robert Shapaire (an ) Partea I Fundamentele învățării automate Figura arată limitele de decizie a cinci predictori succesivi dintr-un set de date (în acest exemplu, fiecare predictor este un clasificator SVM puternic regularizabil cu un nucleu RBF) Primul clasificator percepe incorect multe eșantioane, astfel încât ponderile lor cresc Ca urmare, al doilea clasificator se descurcă mai bine cu astfel de eșantioane etc Graficul din dreapta arată aceeași secvență de predictori, dar rata de învățare este redusă la jumătate (adică, la fiecare iterație, ponderile eșantioanelor clasificate incorect cresc cu maximum la jumătate) După cum puteți vedea, această tehnică de învățare secvențială are unele asemănări cu coborârea gradientului, dar în loc să ajusteze parametrii unui singur predictor pentru a minimiza funcția de cost, AdaBoost adaugă predictori ansamblului, făcându-l treptat mai bun După ce toți predictorii sunt antrenați, ansamblul generează un predictor Acest lucru este foarte asemănător cu bagajul sau inserția, cu excepția faptului că predictorii au greutăți diferite în funcție de corectitudinea lor generală pe setul de antrenament ponderat În scopuri ilustrative, numai metodele SVM în general nu sunt predictori buni pentru AdaBoost, deoarece sunt lente și predispuse la instabilitate cu AdaBoost Chapter Ensemble de învățare și păduri aleatorii | Această tehnică de învățare secvențială are un dezavantaj important: nu permite paralelizarea (sau doar parțial), deoarece fiecare predictor poate fi antrenat numai după ce predictorul anterior a fost antrenat și evaluat În consecință, nu se scalează la fel de bine Să aruncăm o privire mai atentă, luăm în considerare algoritmul AdaBoost Greutatea fiecărui eșantion este setată inițial la Primul predictor este antrenat și rata de eroare ponderată q este calculată pe setul de antrenament (ecuația ) https://neculaifantanaru com/en/the-quality-of-your-employees html unde este hiperparametrul ratei de învățare (cu o valoare implicită de I) Cu cât predictorul este mai corect, cu atât ponderea lui va fi mai mare Dacă predictorul ghicește doar aleatoriu, atunci ponderea sa va fi aproape de zero greșit (adică corectitudinea este mai mică decât estimarea aleatorie), atunci ponderea sa va fi negativă În algoritmul original AdaBoost, hiperparametrul ratei de învățare nu este utilizat Partea I Fundamentele învățării automate -ri a = n log În continuare, ponderile lui eșantioanele sunt actualizate folosind ecuația: eșantioanele clasificate incorect sunt ridicate pentru i = , , , t exp if a, if y (') * După aceea, ponderile eșantionului sunt normalizate (adică împărțite la ) În cele din urmă, este antrenat un nou predictor folosind ponderile actualizate, după care se repetă întregul proces (calcularea ponderii noului predictor, actualizarea ponderilor eșantionului, antrenamentul unui alt predictor etc ) e) Algoritmul se oprește când se atinge numărul dorit de predictori sau un predictor perfect e gasit În predicție, algoritmul AdaBoost numără pur și simplu predicțiile tuturor predictorilor și le ponderează folosind ponderi ale predictorilor pentru modelarea aditivă în trepte folosind o funcție de pierdere exponențială multiclasă) Când există doar două clase, algoritmul SAMME este echivalent cu AdaBoost Pentru mai multe informații, consultați articolul „Multi-Class AdaBoost” („Multi-class AdaBoost algoritm”) , Ji Zhu et al (An) Capitolul Ansamblu Învățare și Păduri aleatorii | De asemenea, dacă predictorii sunt capabili să estimeze probabilitățile de clasă (adică au o metodă), atunci Scikit-Learn poate folosi o variantă de SAMME numită SAMME R (aici R înseamnă Real), care se bazează pe probabilitățile de clasă mai degrabă decât pe predicții și are performanțe mai bune general Codul de mai jos antrenează un clasificator AdaBoost bazat pe (Decision Stiim^ ) folosind o clasă din Scikit-Learn (există și o clasă, ați putea ghici) Un ciot de decizie este un arbore de decizie cu — cu alte cuvinte, un arbore, constând a unui nod de decizie și două noduri frunză Acesta este estimatorul de bază standard pentru clasă Dacă ansamblul dvs AdaBoost este supraadaptat cu setul de antrenament, atunci puteți reduce numărul de estimatori sau puteți regulariza estimatorul de bază mai strict Un alt algoritm de creștere popular este Like AdaBoost gradient amplificarea lucrărilor prin adăugarea de predictori la ansamblu în secvență, fiecare dintre ele corectând predecesorul său Te Cu toate acestea, în loc să ajusteze ponderile eșantioanelor la fiecare iterație, așa cum face AdaBoost, această metodă încearcă să potrivească noul predictor la valorile asumate de predictorul anterior Să ne uităm la un exemplu simplu de regresie folosind arbori de decizie ca predictori de bază ( desigur, creșterea gradientului funcționează bine și în cazul problemelor de regresie) Aceasta se numește sau a fost introdus pentru prima dată în „Arcing the Edge” de L Breiman (an) Partea I Fundamentele învățării automate setul de antrenament patratic): Acum antrenați al doilea regresor pe erorile reziduale făcute de primul predictor: Apoi antrenați al treilea regresor pe erorile reziduale făcute de al doilea predictor: Avem un ansamblu care conține trei arbori Poate face predicții pe un eșantion nou prin simpla însumare a predicțiilor dintre toți arborii: = sum( în ( , , ) ) Figura arată predicțiile acestor trei arbori în coloana din stânga și predicțiile ansamblului în coloana din dreapta În primul rând, ansamblul avea un singur arbore, deci predicțiile sunt exact aceleași cu cele ale primului arbore erori reziduale ale primului arbore În dreapta, puteți vedea că predicțiile ansamblului sunt egale cu suma predicțiilor primilor doi arbori La fel, în al treilea rând , un alt arbore este antrenat cu privire la erorile reziduale ale celui de-al doilea arbore Este ușor de observat că pe măsură ce copacii sunt adăugați la ansamblu, predicțiile acestuia se îmbunătățesc treptat O modalitate mai ușoară de a antrena ansambluri GBRT implică utilizarea unei clase din Scikit-Learn clasa, are hiperparametri pentru a controla creșterea arborilor de decizie (de exemplu, și așa mai departe), precum și hiperparametri pentru a controla învățarea ansamblului, cum ar fi numărul de copaci Capitolul Învățarea ansamblului și pădurile aleatorii | Erori reziduale și predicții de arbore Predicții de ansamblu Set de antrenament - - , Set de antrenament - + + Erori reziduale M-Y ) Următorul cod creează același ansamblu ca și codul anterior: Hiperparametrul ratei de învățare stabilește gradul de contribuție pentru fiecare arbore Dacă o setați la o valoare scăzută precum , atunci trebuie să potriviți mai mulți arbori din ansamblu la setul de antrenament, dar predicțiile se vor generaliza în general mai bine , antrenat cu o rată de învățare scăzută: ansamblul din stânga nu are suficienți arbori pentru a se potrivi pe setul de antrenament, în timp ce ansamblul din dreapta are prea mulți arbori și este supraadaptat pe setul de antrenament Rata de învățare a predicțiilor ansamblului= , n estimatori= — - - rata de învățare=O , n estimatori= - Pentru a găsi numărul optim de arbori, puteți utiliza terminarea anticipată (vezi capitolul ) Este ușor implementează folosind metoda: returnează un iterator peste predicțiile generate de ansamblu la fiecare etapă de antrenament (cu un arbore, doi arbori etc ) Codul de mai jos antrenează un ansamblu GBRT care conține arbori, măsoară eroarea de validare la fiecare etapă de antrenament pentru a găsi numărul optim de copaci și în cele din urmă antrenează un alt ansamblu GBRT folosind numărul optim de arbori: Învățare ansamblu capitol și păduri aleatorii | Figura din stânga arată erorile de validare, iar în dreapta predicțiile celui mai bun model Eroare de validare Minim -L Număr de arbori Cel mai bun model (arbori) Se poate implementa și terminarea timpurie, oprind efectiv antrenamentul devreme (în loc de prima antrenare a unui număr mare de arbori și apoi întoarcerea în căutarea cantității optime) Acest lucru ar necesita setarea Trm , ceea ce face ca biblioteca Scikit-Learn să păstreze arborii existenți atunci când metoda este numită permițând învățarea incrementală Următorul cod oprește învățarea când eroarea de validare nu se îmbunătățește pentru cinci iterații la rând: =True) = float( în interval: ( terminare anticipată Parametrul de clasă acceptă și hiperpara- , care indică proporția de eșantioane de antrenament, în cadrul Machine Learning Part I, care sunt utilizate pentru a antrena fiecare arbore De exemplu, dacă , atunci fiecare arbore este antrenat pe eșantioane de antrenament alese la întâmplare este semnificativ mai rapidă Această tehnică se numește Gradient boosting poate fi aplicat cu alte funcții de cost care sunt controlate de un hiperparametru (pentru mai multe informații, consultați documentația Scikit-Learn) (generalizarea stivei)) Se bazează pe o idee simplă: în loc să folosiți funcții triviale (cum ar fi votul greu) pentru a agrega predicțiile dintre toți predictorii dintr-un ansamblu, de ce nu învățăm vreun model să facă această agregare? Figura arată acest tip de ansamblu care efectuează o problemă de regresie pe un eșantion nou Fiecare dintre cei trei predictori de jos prezice o valoare diferită ( , și ), după care predictorul final (numit sau ) primește astfel de predicții ca intrare și produce predicția finală vezi cum funcționează acest lucru Pentru început, setul de antrenament este împărțit în două subseturi Primul subset este folosit pentru a antrena predictori la primul nivel (Fig ) Apoi predictorii de primul nivel sunt utilizați pentru a genera predicții pe al doilea set (reținut) ( Fig ) Acest lucru asigură că prognozele sunt „curate”, deoarece predictorii nu au văzut niciodată aceste eșantioane în timpul antrenamentului Acum există trei valori prezise pentru fiecare eșantion din setul reținut Putem crea un nou set de antrenament utilizând aceste valori prezise ca caracteristici de intrare (realizarea noului set de antrenament D) și păstrarea valorilor țintă Trenurile Mixer pe noul set de antrenament și, prin urmare, învață să prezică valoarea țintă având predicții de prim nivel Alternativ, pot fi utilizate predicții out-of-fold În unele contexte, aceasta este numită în timpul utilizării unui set reținut — Cu toate acestea, pentru multe oameni, termenii menționați sunt sinonimi Partea I Fundamentele învățării automate De fapt, puteți antrena mai multe mixere diferite în acest fel (de exemplu, un mixer care utilizează regresia liniară, un alt mixer care utilizează regresia aleatorie a pădurii etc obținem un nivel întreg truc este să împărțiți setul de antrenament în trei subseturi (și folosește predicțiile făcute de predictorii de primul nivel) Al treilea subset vă permite să creați un set de antrenament pentru antrenamentul de al treilea nivel (și aplică predicțiile făcute de predictorii de al doilea nivel) După aceea, putem genera o predicție pentru un nou eșantion prin trecerea secvențială prin toate nivelurile (Fig ) Din păcate, Scikit-Learn nu acceptă stivuirea direct, dar nu este prea greu să implementați propria implementare (vezi exercițiile de mai jos) Alternativ, puteți utiliza o implementare open source, cum ar fi ca (disponibil la ) Chapter Ensemble Learning and Random Forests | Tier Tier Dacă ați antrenat cinci modele diferite pe exact aceleași date de antrenament și toate obțin acuratețe, există vreo modalitate de a combina aceste modele pentru a obține rezultate mai bune? Dacă da, cum? Dacă nu, de ce nu? Care este diferența dintre clasificatorii de vot hard și soft? Este posibil să se accelereze antrenamentul unui ansamblu cu pungi distribuindu-l pe mai multe servere? Dar ansamblurile de inserție, ansamblurile amplificate, pădurile aleatorii sau ansamblurile stivuite? Care este avantajul evaluării cu mostre neutilizate? | Partea I Fundamentele învățării automate Ce face ca Extra-Trees să fie mai aleatoriu decât pădurile aleatorii obișnuite? Cum poate ajuta o astfel de aleatorie suplimentară? Sunt copacii la întâmplare mai lenți sau mai rapidi decât pădurile aleatorii obișnuite? Dacă ansamblul dvs AdaBoost nu corespunde datelor de antrenament, ce hiperparametri ar trebui să reglați și cum? Dacă ansamblul tău cu gradient sporit este supraadaptat cu setul de antrenament, ar trebui să crești sau să scazi rata de învățare? Încărcați datele MNIST (introduse în capitolul ) și împărțiți-le într-un set de antrenament, un set de validare și un set de testare (de exemplu, folosind eșantioane de antrenament, validare și probă) Apoi antrenați o varietate de clasificatori, cum ar fi un clasificator de pădure aleatoriu, un clasificator bazat pe arbori foarte aleatori și un clasificator SVM Apoi, încercați să le combinați într-un ansamblu care le depășește pe toate pe setul de testare, folosind un clasificator de vot soft sau hard După ce aveți ansamblul, încercați-l pe setul de testare Cum are rezultate mai bune decât clasificatoarele individuale? Rulați clasificatoarele individuale din exercițiul anterior pentru a genera predicțiile pe setul de testare și creați un nou set de antrenament cu predicțiile rezultate: fiecare eșantion de antrenament este un vector care conține setul de predicții din toți clasificatorii pentru imagine, iar ținta este clasa de imagini Felicitări, tocmai ați antrenat un mixer care, împreună cu clasificatoare, formează un ansamblu de stivuire! Acum evaluați ansamblul de pe setul de testare Pentru fiecare imagine din setul de testare, generați predicții cu toți clasificatorii disponibili, apoi transmiteți acele predicții la mixer, pentru a obține predicțiile ansamblului Cum se compară rezultatele cu clasificatorul antrenat anterior cu votul? Soluțiile la exercițiile de mai sus sunt disponibile în Anexa A Capitolul Învățare prin ansamblu și Păduri aleatorii | CAPITOLUL Reducerea dimensiunilor Multe probleme de învățare automată se ocupă cu mii sau chiar milioane de caracteristici pentru fiecare eșantion de antrenament După cum veți vedea, acest lucru nu numai că încetinește enorm învățarea, dar face și foarte dificilă găsirea unei soluții bune În probleme, numărul de caracteristici pot fi adesea reduse semnificativ prin conversia unei probleme insolubile într-una care poate fi rezolvată De exemplu, luați în considerare imaginile MNIST (pixelii de la marginile imaginilor prezentate în capitol sunt aproape întotdeauna albi, așa că puteți elimina complet astfel de pixeli din set de antrenament fără a pierde multe informații Figura confirmă că acești pixeli nu sunt deloc importanți pentru problema clasificării În plus, doi pixeli adiacenți sunt adesea strâns conectați: dacă îi îmbinați într-un singur pixel (să zicem, luând media intensităților de doi pixeli), nu veți pierde multe informații informații (cum ar fi comprimarea imaginii în format jpeg îi poate degrada calitatea) Și, în timp ce reducerea dimensiunii va accelera antrenamentul, poate face ca sistemul să funcționeze puțin mai rău De asemenea, va complica puțin conductele, făcându-le mai greu de întreținut Prin urmare, ar trebui să încercați mai întâi să antrenați-vă sistemul cu datele originale înainte de a lua în considerare reducerea scalarii atunci când antrenamentul este prea lent Cu toate acestea, în unele cazuri, reducerea datelor de antrenament poate filtra unele zgomote și detalii inutile, rezultând o performanță mai bună (dar în general nu este cazul; doar accelerează învățarea) Pe lângă accelerarea învățării, reducerea dimensionalității este, de asemenea, extrem de utilă în vizualizarea datelor Reducerea numărului de dimensiuni la două (sau trei) face posibilă reprezentarea grafică a seturilor de antrenament cu un număr mare de dimensiuni și generarea adesea câteva perspective importante prin detectarea modelelor vizuale, cum ar fi clusterele În acest capitol, vom discuta despre „blestemul dimensionalității” și vom oferi o idee despre ceea ce se întâmplă într-un spațiu dimensional înalt Apoi ne vom uita la două abordări principale ale dimensionalității reducerea ( și ) și trecem prin cele mai populare trei tehnici de reducere a dimensionalității: PCA, Kernel PCA și LLE Suntem atât de obișnuiți să trăim în trei dimensiuni încât intuiția noastră nu se poate descurca să încercăm să ne imaginăm un spațiu multidimensional t X \ V "X * t A t Bună măsurată sho, în patru dimensiuni dacă luați în considerare timpul și cu atât mai mult dacă sunteți în teoria corzilor Uitați-vă la un tesseract care se rotește atunci când este proiectat în spațiul D: imagine oferită de utilizatorul Wikipedia NerdBoyl (Creative Commons BY-SA) Reprodus din partea I Fundamentele învățării automate Se dovedește că multe lucruri se comportă foarte diferit în spațiul de dimensiuni înalte Cu alte cuvinte, este extrem de puțin probabil ca un punct arbitrar să se dovedească a fi „limitator” în orice dimensiune) Dar în în cazul unui hipercub de unitate -dimensională (cub x x x, adică zece mii de unități în total), această probabilitate depășește Majoritatea punctelor din interiorul unui hipercub multidimensional sunt foarte aproape de margine o diferență mai îngrijorătoare: dacă alegeți la întâmplare două puncte într-un unitate de pătrat, atunci distanța dintre ele va fi aproximativ în medie Dacă alegeți două puncte arbitrare într-un cub tridimensional unitar, atunci distanța medie va fi de aproximativ Dar ce zici de două puncte, alese arbitrar într-un hipercub unitar-dimensional? Credeți sau nu, distanța medie va fi de aproximativ (aproximativ V / )! Acest lucru este complet paradoxal: cum pot două puncte să fie atât de îndepărtate când ambele sunt în interiorul aceluiași hipercub unitar? Rezultă din acest fapt că seturile de date cu dimensiuni înalte riscă să fie extrem de rare: majoritatea eșantioanelor de antrenament sunt probabil să fie departe unul de celălalt predicții mult mai puțin fiabile decât cu mai puține dimensiuni, deoarece se vor baza pe un număr semnificativ mai mare de extrapolări Pe scurt, cu cât un set de antrenament are mai multe dimensiuni, cu atât este mai mare riscul de supraadaptare ” ar putea fi creșterea dimensiunii setului de antrenament pentru a obține o densitate suficientă a eșantioanelor de antrenament Din păcate, în practică, numărul de eșantioane de antrenament necesare pentru a obține o anumită densitate crește exponențial în raport cu numărul de dimensiuni Cu doar caracteristici (multe mai puține decât în ​​problema MNIST), ați avea nevoie de mai multe mostre de antrenament decât există atomi în universul observabil, pentru a probele de antrenament au fost distanțate în medie, presupunând că au fost distribuite uniform pe toate dimensiunile Fapt amuzant: oricine pe care îl cunoașteți este probabil în poziția extremă pe cel puțin o dimensiune (să zicem, cantitatea de zahăr adăugată la cafea) dacă luați în considerare o număr suficient de dimensiuni Capitolul Reducerea la scară | Înainte de a ne aprofunda în studiul algoritmilor specifici de reducere a dimensionalității, să luăm în considerare două abordări principale ale reducerii dimensionalității: proiecția și învățarea multiple În majoritatea problemelor din lumea reală, eșantioanele de antrenament nu sunt distribuite uniform pe toate dimensiunile dependente (ceea ce a fost discutat mai devreme pentru MNIST) Ca rezultat, toate mostrele de antrenament sunt de fapt în interiorul (sau aproape de) cu mult mai puține dimensiuni într-un spațiu de dimensiuni înalte Sună foarte abstract, așa că merită să aruncăm o privire asupra exemplului Figura arată un set de date tridimensional, reprezentat de cercuri Rețineți că toate eșantioanele de antrenament sunt situate aproape de un anumit plan: acesta este un subspațiu cu mai puține dimensiuni (bidimensionale) într-un spațiu de dimensiuni înalte (tridimensionale) Dacă acum proiectăm fiecare eșantion de antrenament perpendicular pe un astfel de subspațiu (reprezentat prin linii scurte care conectează mostrele la avion), apoi obținem un nou set de date bidimensional, cu Partea I Fundamentele învățării automate introduse în figura Ta-dam! Tocmai am retrogradat setul de date de la -x la -x Rețineți că axele corespund noilor caracteristici și (coordonatele proiecțiilor către plan) - Z Cu toate acestea, proiecția nu este întotdeauna cea mai bună abordare a reducerii dimensiunilor În multe cazuri, subspațiul se poate răsuci și roti ca în setul de date cunoscut prezentat în Figura Capitolul Downscaling | Simpla proiectare pe un plan (de exemplu, prin aruncarea ) ar aplatiza diferitele niveluri de rulare elvețiană, așa cum se vede în stânga în figură Rollul elvețian este un exemplu de bidimensionale Pentru a spune simplu, o varietate bidimensională este o formă bidimensională care poate fi răsucită și răsucită într-un spațiu cu mai multe dimensiuni În general, o varietate -dimensională este o bucată de - spațiu dimensional (unde d = ) + Puteți instala și rula din nou algoritmul PCA Cu toate acestea, există multe opțiuni mai bune: în loc să specificați numărul de componente principale care trebuie păstrate, îl puteți seta la un număr în virgulă mobilă între și , indicând proporția de varianță pe care doriți să o păstrați: , : i ) O altă opțiune implică reprezentarea grafică a varianței explicate în funcție de numărul de măsurători (necesar o doar desenați; Fig ) Va exista, de obicei, o îndoire bruscă a curbei în care varianța explicată încetează să crească rapid Vă puteți gândi la aceasta ca la o dimensiune inerentă a setului de date În cazul nostru, se poate observa că reducerea dimensiunilor la aproximativ dimensiuni nu va pierde prea mult varianță explicată I Îndoire ascuțită I I I I I I I I I Evident, după reducere, setul de antrenament necesită mult mai puțin spațiu De exemplu, încercați să aplicați algoritmul PCA setului de date MNIST, păstrând în același timp variațiile acestuia Ar trebui să descoperiți că fiecare eșantion va avea doar caracteristici puțin mai mari în loc de caracteristicile originale Deci, împreună cu faptul că cea mai mare parte a variației este păstrată, setul de date este acum mai mic decât dimensiunea inițială! Aceasta este o cantitate acceptabilă de compresie și veți observa că poate accelera semnificativ un algoritm de clasificare (cum ar fi SVM) care a dus la pierderea unor informații (în cadrul varianței , aruncat), dar rezultatul este probabil să fie destul de apropiat de datele originale Pătratul mediu al distanței dintre datele originale și cele restaurate (comprimate și apoi decomprimate) este apelat înapoi la măsurători Figura arată câteva cifre din antrenamentul original set (stânga) și aceleași cifre după compresie și decompresie După cum puteți vedea, calitatea imaginii este ușor redusă, dar numerele sunt în mare parte neafectate transformarea inversă a lui Y, YV T reconstruit "-proiecție Partea I Fundamentele învățării automate Problema cu implementarea anterioară a algoritmului PCA este că necesită ca întregul set de antrenament să fie stocat în memorie pentru ca algoritmul SVD să funcționeze, din fericire , au fost dezvoltați algoritmi (- puteți împărți setul de antrenament în mini-loturi și puteți trece a Algoritmul IRSA câte un mini-lot Această tehnică este utilă pentru seturi mari de antrenament și, de asemenea, pentru aplicarea dinamică a algoritmului PCA (adică din mers, pe măsură ce sosesc noi mostre) Codul următor împarte setul de date MNIST în mini-lot (folosind un funcția de la NumPy ) și le transmite clasei Scikit-Learn pentru a reduce setul de date MNIST la dimensiuni (ca și înainte) Rețineți că trebuie să apelați metoda cu fiecare minibatch, nu metoda cu întregul set de antrenament: = Alternativ, puteți utiliza o clasă de la NumPy care vă permite să manipulați o matrice mare stocată într-un fișier binar de pe disc ca și cum ar fi în întregime în memorie; clasa încarcă în memorie datele de care are nevoie doar atunci când are nevoie Deoarece clasa folosește doar o mică parte a matricei la un moment dat, utilizarea memoriei este ținută sub control Acest lucru face posibilă apelarea metodei obișnuite de potrivire: = // inc pca = ( C = t = : ) І C re f t ( ) Biblioteca Scikit-Learn folosește algoritmul descris în articolul „Învățare incrementală pentru urmărirea vizuală robustă” de D Ross și colab (an) Chapter Dimension Downscaling | Biblioteca Scikit-Learn oferă o altă modalitate de a face algoritmul PCA numit Este un algoritm stocastic care găsește rapid o aproximare a primelor componente principale Complexitatea sa de calcul este O(m x d ) + O(J ) în loc de O(m x u ) + O (și ), astfel încât atunci când este mult mai mic decât , este semnificativ mai rapid decât algoritmii anteriori ) În capitol, am discutat despre un truc al nucleului, adică un truc matematic care mapează implicit eșantioanele într-un spațiu cu un număr foarte mare de dimensiuni ( numită ), permițând clasificarea neliniară și regresia cu ajutorul mașinilor de vectori suport Amintiți-vă că o graniță de decizie liniară în spațiul de caracteristici de dimensiuni mari corespunde unei granițe de decizie complexă neliniară în Se pare că același truc poate fi aplicat PCA, permițându-vă să efectuați proiecții neliniare complexe pentru reducerea dimensionalității Aceasta se numește Este adesea util să păstrați grupurile de mostre după o proiecție sau, uneori, chiar să desfaceți seturi de date care se află aproape de o varietate răsucită De exemplu, următorul cod folosește o clasă de la Scikit-Learn pentru a efectua qRSA cu un nucleu RBF (pentru mai multe informații despre nucleul RBF și alte nuclee, consultați capitolul „Analiza componentelor principale ale kernelului” de B Scholkopf, A Smola, K Müller (Anul) Partea I Fundamentele învățării automate Figura arată setul de date elvețian roii redus la două dimensiuni folosind un nucleu liniar ( echivalentul unei clase de utilizare simplă), nucleul RBF și nucleul sigmoid (pierdere logistică) selecția nucleului și reglarea hiperparametrului pas pregătitor pentru sarcina de învățare cu predare lem (să zicem, clasificare), astfel încât să puteți utiliza pur și simplu căutarea prin rețea pentru a selecta nucleul și hiperparametrii care conduc la cea mai bună performanță la o astfel de problemă regresie logistică pentru clasificare Apoi, aplică clasa pentru a găsi cel mai bun nucleu și valoarea pentru qRSA pentru a obține cea mai bună precizie de clasificare la sfârșitul conductei Capitolul Dimension Downscaling | grid search = GridSearchCV(elf, par m grid, cv= ) grid ;arch : Acum, cei mai buni kernel și hiperparametri sunt disponibili prin ! : (grid rch best params ) {'krsa gamma': , krsa kernel': rbf'} O altă abordare, complet nesupravegheată de data aceasta, este să alegeți nucleul și hiperparametrii care au ca rezultat cea mai mică eroare de recuperare ușor, ca în cazul de PCA liniar, și de aceea figura arată setul de date D elvețian roii original (stânga sus) și setul de date D rezultat după utilizarea qRSA cu nucleul RBF (dreapta sus) Noțiuni de bază pentru învățarea automată Datorită trucului kernel, aceasta este echivalentă matematic cu maparea setul de antrenament la un spațiu de caracteristici dimensionale infinite (dreapta jos) și apoi proiectarea setului de antrenament transformat la un set D utilizând PCA liniară Rețineți că dacă am putea inversa pasul PCA liniar pentru un eșantion dat în spațiu cu număr redus de dimensiuni, atunci punctul reconstruit ar fi situat în spațiul caracteristică, și nu în spațiul original (de exemplu, ca punctul reprezentat în diagramă prin ) Deoarece spațiul caracteristică este infinit-dimensional, nu putem calcula reconstrucția punct și, prin urmare, nu putem calcula eroarea exactă Recuperare Din fericire, este posibil să găsim un punct în spațiul inițial care se va mapa aproape de punctul recuperat Aceasta se numește recuperare Având în vedere o astfel de preimagine, puteți măsura pătratul de distanța sa față de eșantionul original și apoi alegeți un nucleu și hiperparametri care minimizează eroarea preimagine de recuperare Puteți fi interesat de modul în care se face această recuperare O soluție este să antrenați un model de regresie supravegheat cu mostrele proiectate ca setul de antrenament și originalul eşantioane ca ţinte Biblioteca Scikit-Learn va face acest lucru automat dacă setați True așa cum se arată în următorul cod: ( = =Tru ) = , - ) False în mod implicit și clasa nu are nicio metodă Această metodă este creată numai dacă este setată la True Biblioteca Scikit-Learn folosește un algoritm bazat pe Kernel Ridge Regression ), care este descris în articolul „Învățați să găsiți imagini prealabile”, G Bakir, D Weston și B Scholkopf (Tübingen, Germania: Institutul Max Planck pentru Cibernetică Biologică, an) Capitolul Reducerea dimensiunii | Apoi puteți calcula eroarea preimagine de recuperare: Acum puteți utiliza căutarea prin validare încrucișată pentru a găsi nucleul și hiperparametrii care minimizează eroarea preimagine de recuperare ( e - ) este o altă tehnică foarte puternică Aceasta este o tehnică de învățare variată , care nu nu se bazează pe proiecții ca algoritmii anteriori Pe scurt, LLE măsoară mai întâi modul în care fiecare eșantion de antrenament este legat liniar de cei mai apropiați vecini ai săi și apoi caută o reprezentare a setului de antrenament cu mai puține dimensiuni unde astfel de conexiuni locale sunt cel mai bine protejate (vom merge în detalii în scurt timp) ) Ca urmare, tehnica LLE este foarte eficientă la implementarea distribuitoarelor răsucite, mai ales când zgomotul nu este prea mare De exemplu, codul de mai jos folosește clasa de la Scikit-Learn pentru a implementa setul de date Swiss roii complet extins și distanțele dintre eșantioane bine protejate la nivel local Cu toate acestea, distanțele nu sunt protejate la scară mai mare: partea stângă a setului de date Swiss roii neextins este strivită în timp ce partea dreaptă este întinsă Reducerea dimensionalității prin încorporare liniară locală” de S Rowais, L Saul (Yr) Partea I Fundamentele învățării automate Roii elvețieni nedesfășurați folosind LLE - - Zi Iată cum funcționează LLE: mai întâi pentru fiecare eșantion de algoritm de stagiar identifică cei mai apropiați vecini ai săi (în codul anterior la ) și apoi încearcă să recupereze xW ca un funcția liniară a acestor vecini Mai exact, caută ponderi Wjj astfel încât pătratul distanței dintre x^ și Wjjit să fie cât mai mic posibil, cu condiția ca , dacă x^ nu este unul dintre k vecini cei mai apropiați ai lui x^ Astfel , primul pas în LLE este problema cond , unde W este matricea de ponderi care conține toate ponderile W/j A doua constrângere normalizează pur și simplu ponderile pentru fiecare eșantion de antrenament x^'\ ~ m I W argmin E x^ E wi ,x^ W i=T )= , dacă x^ nu este unul dintre k vecini cei mai apropiați ai lui x^ în condiția m E W- = pentru і l, ,,m j=l Al doilea pas este maparea probelor de antrenament într-un spațiu -dimensional (unde d I ) Implementarea algoritmul LLE din Scikit-Learn are următoarea complexitate de calcul: optimizarea greutăților și O(dm ) pentru construirea de reprezentări cu dimensiuni reduse Din păcate, prezența lui m în ultimul element face ca acest algoritm să fie slab scalabil pentru seturi de date foarte mari din care se dimensionează în timp ce încearcă să păstreze distanțele dintre instanțe (fig ) creează un grafic conectând fiecare instanță la cei mai apropiați vecini ai săi și apoi reduce dimensiunea în timp ce încearcă să păstreze (g ) între instanțe reducând una Distanța geodezică dintre două noduri din grafic este numărul de noduri de pe cea mai scurtă cale între aceste noduri Partea I Fundamentele învățării automate încearcă temporar să stocheze mostre similare în apropiere și mostre diferite la distanță Este folosită în principal pentru vizualizare, în special pentru reprezentarea vizuală a grupurilor de eșantioane într-un spațiu dimensional înalt (de exemplu, pentru vizualizarea D a imaginilor MNIST) (Linia s - ) este de fapt un algoritm de clasificare, dar în timpul antrenamentului învață cele mai distincte axe dintre clase, care pot fi apoi folosite pentru a determina hiperplanul în care vor fi proiectate datele Avantajul este că proiecția va menține clasele cât mai departe posibil, așa că LDA este o tehnică bună pentru reducerea dimensionalității înainte de a rula un alt algoritm de clasificare, cum ar fi SVM Isometric MDS Mapping t-SNE - t -! - -« « - - -‘ - - - - - - ZL ZL Care sunt principalele motivații pentru reducerea dimensiunii unui set de date? Care sunt principalele dezavantaje ale reducerii dimensionalității? Ce este „blestemul dimensionalității”? După ce setul de date a fost redus, operațiunea poate fi inversată? Dacă da, cum? Dacă nu, de ce nu? Poate fi folosit algoritmul PCA pentru a reduce dimensiunea unui set de date foarte neliniar? Reducerea capitolului | Să presupunem că rulați algoritmul PCA pe un set de date -dimensional, setând coeficientul de varianță explicat la Câte dimensiuni va avea setul de date rezultat? Când ați folosi SAR simplu, SAR incremental, SAR randomizat sau SAR nuclear? Cum puteți evalua performanța algoritmului de reducere a dimensionalității pe setul dvs de date? Are vreun sens să înlănțuim doi algoritmi diferiți de reducere a dimensionalității? Încărcați setul de date MNIST (introdus în capitolul ) și împărțiți-l într-un set de antrenament și un set de testare (luați primele mostre pentru antrenament și restul pentru testare) Antrenați un clasificator de pădure aleatoriu folosind setul de date și înregistrați cât timp a durat, după care Evaluați modelul rezultat pe setul de testare Apoi, aplicați algoritmul PCA pentru a reduce dimensionalitatea setului de date cu coeficientul de varianță explicat Antrenați un nou clasificator de pădure aleatoriu folosind setul de date mai mic și vedeți cât timp a durat Antrenamentul a fost semnificativ mai rapid? Evaluați noul clasificator pe setul de testare: cum se compară cu clasificatorul anterior? Utilizați algoritmul t-SNE pentru a reduce dimensiunea setului de date MNIST la două dimensiuni și a trasa rezultatul utilizând Matplotlib Puteți utiliza un grafic de dispersie cu culori diferite pentru a reprezenta clasa țintă a fiecărei imagini Alternativ, puteți reprezenta numere colorate în locul fiecărei mostre sau chiar desenați versiuni cu dimensiuni reduse ale imaginilor cu cifre în sine (dacă desenați toate cifrele, vizualizarea va fi prea aglomerată, așa că ar trebui fie să trageți un eșantion aleatoriu, fie să trageți un eșantion numai dacă nu au fost extrase alte mostre la distanță apropiată) Ar trebui să obțineți o vizualizare ordonată, cu grupuri de cifre bine separate Încercați să aplicați alți algoritmi de reducere a dimensionalității, cum ar fi PCA, LLE sau MDS și să comparați vizualizările rezultate Soluțiile pentru exercițiile date sunt disponibile în Anexa A Partea I Fundamentele învățării automate PARTEA II Neural Rețele și învățare profundă CAPITOLUL Noțiuni de bază cu Tenso rFlow este o bibliotecă puternică de software open source pentru calcule numerice Este deosebit de potrivită și reglată fin pentru învățarea automată la scară largă Principiul său de bază este simplu: definiți în Python un grafic al calculelor care trebuie efectuate (cum ar fi în Figura ) , iar TensorFlow preia acest grafic și îl rulează eficient folosind cod C++ optimizat Cel mai important, graficul poate fi divizat în bucăți și rulat în paralel pe mai multe procesoare sau GPU-uri (Figura ) Biblioteca TensorFlow acceptă, de asemenea, calcularea distribuită, astfel încât să puteți antrena uriașe neuronale rețele pe seturi de antrenament incredibil de mari într-un timp rezonabil, distribuind calculele pe sute de servere (vezi capitolul ) Biblioteca TensorFlow este capabilă să antreneze o rețea cu multe milioane de parametri pe seturi de antrenament constând din miliarde de mostre cu milioane de caracteristici în fiecare a fost dezvoltat de echipa Google Blain și alimentează multe dintre serviciile Google la scară largă, cum ar fi Google Cloud Speech, Google Photos și Google Search Când codul sursă al TensorFlow a fost disponibil în noiembrie, multe biblioteci populare open source existau deja de origine a Deep Learning, dintre care un număr sunt enumerate în tabel și trebuie să recunoaștem că majoritatea instrumentelor TensorFlow erau disponibile într-o bibliotecă sau alta Totuși, o decizie clară de proiectare, scalabilitate, flexibilitate și documentație extinsă (nu menționați disponibilitatea Google în nume) a propulsat rapid TensorFlow în fruntea listei Pe scurt, TensorFlow a fost conceput de la început pentru a fi flexibil, scalabil și gata de funcționare, iar cadrele existente aveau doar două dintre aceste trei caracteristici TensorFlow nu se limitează la rețelele neuronale sau chiar la învățarea automată; dacă doriți, puteți rula modele de simulare din fizica cuantică Partea II Rețele neuronale și învățarea profundă Următoarele sunt câteva dintre caracteristicile importante ale bibliotecii TensorFlow Oferă un API foarte simplu pentru Python numit ( , care este compatibil cu Scikit- Învățați biblioteca După cum veți vedea, poate fi folosit pentru a antrena diferite tipuri de rețele neuronale cu doar câteva linii de cod Anterior, acesta ar fi fost un proiect independent (sau ) Acesta oferă și un alt API simplu numit , ceea ce îl face ușor de construit, antrenat și evaluat rețele neuronale O serie de alte API-uri de nivel înalt au fost construite independent pe TensorFlow, cum ar fi ( ; acum disponibil în ) sau Pretty Tensor API-ul său principal pentru Python oferă mult mai multă flexibilitate (la cost de complexitate mai mare) la creare tot felul de calcule, inclusiv orice arhitectură de rețea neuronală imaginabilă Include implementări C++ foarte eficiente ale multor operațiuni ML, în special cele necesare pentru a construi rețele neuronale Există, de asemenea, un API C++ care vă permite să vă definiți propriile operațiuni de înaltă performanță noduri de optimizare pentru găsirea parametrilor care minimizează funcția overhead Sunt foarte ușor de utilizat deoarece TensorFlow se va ocupa automat de calcularea gradienților funcțiilor pe care le definiți Se numește ( diferențiere - Vine cu un instrument grozav de vizualizare numit compute graph, show curbe de învățare etc A nu se confunda cu biblioteca TFLearn, care este un proiect independent Capitolul Noțiuni de bază cu TensorFlow | De asemenea, Google a lansat TensorFlow, un serviciu cloud pentru rularea graficelor Nu în ultimul rând, are asociată o echipă de dezvoltatori dedicați și cu experiență și o comunitate în creștere care contribuie la îmbunătățirea acestuia Este unul dintre cele mai populare proiecte open source de pe GitHub și tot mai multe proiecte grozave sunt construite pe deasupra (de exemplu, consultați pagina de resurse la sau ) Întrebările tehnice ar trebui fi întrebat la Puteți trimite erori și solicitări de funcții prin GitHub Alăturați-vă grupului Google pentru a participa la discuții generale În acest capitol, vom parcurge elementele de bază ale TensorFlow, de la instalare până la crearea, rularea, salvarea și redarea graficelor simple de calcul Este important să stăpâniți aceste elemente de bază înainte de a vă construi prima rețea neuronală (ceea ce vom face în următorul capitol) Caffe Python, C++, Matlab Linux, macOS, Windows I Jia, UC Berkeley (BVLC) Deeplearning j Java, Scala, Clojure Linux, macOS , Windows, Android A Gibson, D Patterson N Python, R Linux, macOS, Windows H O ai MXNet Python, C++ și altele Linux, macOS, Windows, iOS, Android DMLC Ten sorFlow Python, C++ Linux, macOS, Windows, iOS, Android Google Theano Python Linux, macOS, iOS University of Montreal Torch C++, Lua Linux, macOS, iOS, Android P Kollober, K Kavukcuoglu, K Farabe Part II Neural Networks and Deep Learning Să mergem! Presupunând că ați instalat Jupyter și Scikit-Learn conform instrucțiunilor din capitol, puteți utiliza pur și simplu pip pentru a instala TensorFlow Dacă ați creat un sandbox folosind virtualenv, atunci trebuie mai întâi să îl activați: $HOME/ml) $ source env /bin/activate Apoi instalați TensorFlow (dacă virtualenv nu este folosit atunci aveți nevoie de drepturi de administrator sau adăugați $ pip install upgrade opțiunea tensorflow Pentru suport GPU, trebuie să instalați în schimb Pentru mai multe informații contactați capitolul Pentru a verifica rezultatele instalării, tastați următoarea comandă Ar trebui să afișeze versiunea bibliotecii TensorFlow instalate $ python -c import tensorflow; prinț(tensorflow version )' de fapt nu efectuează niciun calcul, deși pare că face (mai ales o ultima linie) Creează doar un grafic de calcul De fapt, nici măcar nu inițializează variabilele Pentru a rula un astfel de grafic, va trebui să deschideți TensorFlow și să îl utilizați pentru a inițializa variabilele și a evalua sesiunea TensorFlow se ocupă de introducerea operațiunilor în , cum ar fi central pro Capitolul Pregătirea pentru a lucra cu procesoarele și GPU-urile TensorFlow, executarea acestora și salvarea valorilor tuturor variabilelor Următorul cod creează o sesiune, inițializează variabile, evaluează și închide sesiunea (eliberând resurse): O Repetând fiecare timpul poate deveni greoi, dar, din fericire, există o modalitate mai bună: O : O O = O În cadrul unui bloc, sesiunea este setată ca un apel standard și este echivalent cu un apel și, în mod similar, un apel este echivalent cu un apel face codul mai ușor de citit De asemenea, sesiunea este închisă automat la sfârșitul blocului În loc să rulați manual un inițializator pentru fiecare variabilă, puteți utiliza | Notă, că de fapt nu se inițializează imediat, ci în schimb creează un grafic care va inițializa toate variabilele pe măsură ce rulează: = : () pregătiți nodul de inițializare O : () inițializarea efectivă a tuturor variabilelor = O În interiorul Jupyter sau în shell-ul Python , puteți alege să creați o instanță devine automat sesiune standard, astfel încât blocul nu este necesar (dar va trebui să fie închis manual după terminarea sesiunii): >ess = tf InteractiveSesion() init run() re i t = : evai () ( ;u i ) Un program TensorFlow, de obicei împărțit în două părți: prima parte construiește graficul de calcul, iar a doua parte îl rulează Etapa de construcție creează de obicei un grafic de calcul reprezentând modelul și calculele necesare pentru antrenamentul modelului Etapa de rulare în ansamblu rulează o buclă care produce în mod repetat un pas de antrenament (să zicem, un pas pe mini-lot), îmbunătățind progresiv parametrii modelului graph: = tf Va ablé cl graphis :f get default grap' 'O True În cele mai multe cazuri, acest comportament este bine, dar uneori poate fi necesar să gestionați mai multe grafice independente Pentru a face acest lucru, trebuie să creați o instanță nouă și să o faceți temporar graficul standard în interiorul bloc : gr ar l = tf Graph () 'h a: :ault(): = Va:: is True x graph is tf get defau' t grapli () False Capitolul Configurarea cTensorFlow | În timpul experimentării în Jupyter (sau shell-ul Python), aceleași comenzi sunt adesea executate de mai multe ori Rezultatul este un grafic standard care conține multe noduri duplicate O soluție ar putea fi repornirea nucleului Jupyter (sau shell-ul Python), dar o soluție mai acceptabilă implică pur și simplu întoarcerea unui grafic standard la starea inițială prin intermediul Când evaluează un nod, TensorFlow determină automat setul de noduri de care depinde și evaluează mai întâi acele noduri De exemplu, aruncați o privire la următorul cod: = : -c = + = + O ( O) ( K )) În primul rând, în cod este definit un grafic foarte simplu Apoi se creează o sesiune în care se rulează graficul rezultat pentru a evalua: TensorFlow detectează automat că depinde de nod , care depinde de , deci mai întâi evaluează , apoi , apoi și returnează valoarea În cele din urmă , codul rulează graficul pentru a evalua Și din nou, TensorFlow observă că primul care trebuie evaluat ar trebui să fie și Este important de reținut că TensorFlow nu va reutiliza rezultatul evaluării anterioare și Pe scurt, codul precedent evaluează și de două ori Între rulările grafice, valorile tuturor nodurilor sunt eliminate, cu excepția valorilor variabilelor care sunt menținută de sesiune în paralel cu rulările graficului (așa cum se va arăta în capitol, clasele Queue și Read mențin și starea) O variabilă își începe existența atunci când inițializatorul ei rulează și se termină când se închide sesiunea Dacă doriți să evaluați și eficient , fără a evalua de două ori ca în codul precedent, atunci ar fi necesar să solicitați TensorFlow o evaluare și doar într-o singură rulare a graficului, așa cum se demonstrează în următorul cod: Partea II Rețele neuronale și învățare profundă În versiunea unică a procesului de TensorFlow , multe sesiuni nu împărtășesc nicio stare chiar dacă reaplică același grafic (fiecare sesiune va avea propria copie a fiecărei variabile) În versiunea distribuită a TensorFlow (vezi capitolul ), starea variabilelor este stocată pe servere, nu sesiuni, astfel încât mai multe sesiuni pot împărtăși aceleași variabile Operațiile TensorFlow pot lua orice număr de intrări și pot produce orice număr de ieșiri De exemplu, adunarea și înmulțirea iau două intrări și produc o singură ieșire Constanțele și variabilele nu iau nicio intrare (se numesc ) Intrările și ieșirile sunt tablouri multidimensionale numite ; de unde și numele bibliotecii: „flux tensor” La fel ca și tablourile NumPy, tensorii au un tip și o formă pentru a trece șiruri de caractere (matrice de octeți arbitrari) În exemplele de până acum, tensorii au conținut doar o singură valoare scalară, dar, desigur, calculele pot fi făcute pe tablouri de orice formă Codul de mai jos manipulează tablouri bidimensionale pentru a efectua regresia liniară pe un set de date, care conține prețurile imobiliare din California (a se vedea capitolul ) Codul începe prin extragerea setului de date Apoi adaugă o caracteristică suplimentară de introducere a părtinirii (x = ) la toate mostrele de antrenament (folosind NumPy, astfel încât acțiunea să fie executată imediat) Codul creează apoi două constante Capitolul Pregătirea pentru lucrul cu TensorFlow | un nod TensorFlow, și , pentru a stoca aceste date și ținte și apoi utilizează o serie de operații matrice furnizate de TensorFlow pentru a determina Asemenea funcții matrice - , și - se explică de la sine, dar, ca de obicei, nu efectuează calcule imediat; în schimb, în ​​grafic sunt create noduri, care vor fi executate la rularea graficului Se poate observa că definiția corespunde ecuației normale ,)), ] ) O : O Principalul avantaj al codului afișat, în comparație cu calcularea ecuația normală folosind direct NumPy, este că TensorFlow îl va executa automat pe placa GPU, dacă este disponibil (desigur, dacă TensorFlow este instalat cu suport pentru GPU; vezi capitolul pentru detalii) Să încercăm să folosim coborârea gradientului batch (introdus în capitol) în loc de ecuația normală aplicați câteva optimizatoare TensorFlow out-of-the-box Rețineți că este o matrice unidimensională, dar pentru calcul, trebuie să-i dăm forma unui vector coloană Amintiți-vă că funcția NumPy vă permite să specificați pentru una dintre dimensiuni (înseamnă „nedefinit”): această dimensiune va fi calculată pe baza lungimii matricei și a restului dimensiunilor Partea II Rețele neuronale și Deep Learning TensorFlow, NumPy, clasa de la Scikit-Learn sau orice altă soluție la alegerea dvs codul următor presupune că normalizarea a fost deja făcută Calcul manual al gradientului Codul următor se explică de la sine, cu excepția câtorva elemente noi Funcția creează un nod în grafic care va nerf un tensor care conține valori aleatoare cu o formă și un interval dat, mult ca o funcție NumPy Funcția creează un nod care va atribui o nouă valoare unei variabile În acest caz, implementează un pas de coborâre a gradientului lot ^(pasul următor) Q ^\^MSE Main bucla execută în mod repetat pasul de învățare (de ori) și imprimă eroarea rms curentă la fiecare iterație Ar trebui să observați că MSE scade cu fiecare iterație rata de învățare = X - tf constantă (date de locuință la scară plus bia f dtype=tf f ” ,oat , name= ) = : : (i' OU i , ) , =: f f' ,oac , -:= ) theta = tf : : lea: ing rate * dgYaie ps'h) init = tf oba' , variabile initializer () tf Sessior () sess: Capitolul Pregatirea de a lucra cu TensorFlow I în domeniul : O Codul anterior funcționează bine, dar necesită derivarea matematică a gradienților din funcțiile de cost (MSE) În cazul regresiei liniare, acest lucru este destul de ușor, dar dacă deducerea ar trebui făcută cu rețele neuronale profunde, atunci ar fi destul de dureros de cap: este plictisitor și predispus la erori Ați putea folosi ( diferențiere imbolică ) pentru a găsi automat ecuațiile pentru derivate parțiale, dar codul rezultat nu este necesar ar fi foarte eficient Pentru a înțelege motivul, luați funcția f(x)= exp(exp(exp(x))) Dacă cunoașteți calculul, puteți deriva derivata acestuia /X(x) = exp(x) x exp( exp (x)) x exp(exp(exp(x))) Dacă scrieți codul /(x) și f(x) separat și exact așa cum arată, codul nu va fi atât de eficient pe cât ar putea fi Mai eficient soluția implică scrierea unei funcții care evaluează mai întâi exp(x), apoi exp(exp(x)), apoi exp(exp(exp(exp(x))) și returnează toate cele trei valori Acest lucru dă direct f(x) (cel al treilea element), iar dacă doriți derivata, atunci puteți pur și simplu înmulți toate cele trei elemente În abordarea naivă, pentru a calcula f(x) și f'(x), funcția ar trebui apelată de nouă ori În cazul abordării tocmai discutate, trebuie apelată doar de trei ori Totul se înrăutățește atunci când funcția definită de un cod arbitrar Puteți găsi o ecuație (sau cod) pentru a calcula derivatele parțiale ale următoarei funcție? Sfat: nici măcar nu încercați : în interval : = * ( + i) + * ( ) Din fericire, instrumentul de autodiff al lui TensorFlow vine în ajutor: poate calcula gradienți automat și eficient Înlocuiți doar linia din codul de coborâre a gradientului din partea II Rețele neuronale și deep learning în secțiunea anterioară, prezentată mai jos, iar codul continuă să funcționeze bine: = ( ,[ [] Funcția preia o operație (în acest caz ) și o listă de variabile (doar aici ) și creează o listă de operații (una pe variabilă) pentru a calcula operațiile cu gradienți cu privire la fiecare variabilă Astfel, nodul va calcula vectorul gradient MSE în raport cu Există patru abordări principale pentru calcularea automată a gradienților, care sunt rezumate în tabelul care folosește biblioteca TensorFlow, ceea ce este ideal (din punct de vedere al eficienței și corectitudinii) când există multe intrări și puține ieșiri, așa cum este adesea cazul în rețelele neuronale Calculează toate derivatele parțiale ale ieșirilor în raport cu toate intrările numai în iOUTPUTS + traversări grafice Linputs numerice + diferențiere (diferențiere numerică) ) Diferențiere simbolică (diferențiere simbolică) autodiff în mod direct) Autodiff în mod invers Scăzut Da Înalt Nu Înalt Da Mare Da Trivial de implementat Construiește un grafic foarte diferit Utilizează numere duale Implementat în TensorFlow Dacă sunteți interesat de modul în care funcționează această magie, consultați Anexa D Capitolul Pregătirea pentru a lucra cu TensorFlow Deci, biblioteca TensorFlow calculează gradienții pentru tine Dar este și mai simplu: oferă și mai multe optimizatoare din nou, inclusiv un optimizator de coborâre a gradientului Puteți înlocui doar liniile precedente cu următorul cod și va funcționa din nou: Aplicați optimizatorul dacă doriți altfel trebuie să schimbați o singură linie De exemplu, puteți utiliza , care adesea converge mult mai repede decât coborârea gradientului (vezi capitolul ), definindu-l astfel: = ( = , ) Să încercăm să modificăm codul anterior pentru a implementa coborârea gradientului mini-loc Pentru a face acest lucru, avem nevoie de o modalitate de a înlocui și la fiecare iterație cu următorul minipachet volum Cel mai simplu mod este de a utiliza Astfel de noduri sunt speciale, deoarece nu fac de fapt nici un calcul, ele produc doar datele pe care le spuneți să le scoată la execuție Sunt de obicei folosite pentru a furniza date de antrenament către TensorFlow în timpul antrenamentului Dacă nu specificați o valoare în timpul execuției pentru un nod de substituent, apoi va fi aruncată o excepție Pentru a crea un nod de substituent, trebuie să apelați o funcție și să specificați tipul de date al tensorului de ieșire Opțional, puteți specifica și forma acestuia dacă doriți să Specificarea Niciunul pentru o dimensiune înseamnă „orice dimensiune ” De exemplu, următorul cod creează un nod substituent și un nod Când este evaluat, trecem o instanță metodei care specifică valoarea Rețineți că nodul trebuie să aibă un rang ( adică să fie bidimensionale) și trebuie să conțină trei coloane (în caz contrar, va fi aruncată o excepție), dar poate include orice număr de rânduri Partea II Rețele neuronale și învățare profundă De fapt, puteți transmite rezultatul oricăror operațiuni, nu doar substituenți În acest caz, biblioteca TensorFlow nu încearcă să evalueze aceste operații; le aplică valorile pe care le transmiteți Pentru a implementa coborârea gradientului mini-lot, trebuie doar să modificăm ușor codul existent Mai întâi, modificați definiția și în etapa de construcție, făcându-le noduri de substituent: = ( , =( None, ) , = ) Apoi, determinați dimensiunea pachetului și numărați numărul total de pachete: = int ( ( / ) ) În cele din urmă, în timpul execuției, extrageți mini-pachetele unul câte unul și furnizați valoarea și prin parametru la evaluare nodul, care depinde de oricare dintre ele [ \ y z / ] încărcarea datelor de pe disc : in range : in range ( >atch, y be h = a batch(ej ) : f f ) ( , :={ : f }) to lucrează cu TensorFlow | Nu este necesar să treceți o valoare în timpul evaluării din cauza lipsei de dependență de ele După antrenamentul modelului, trebuie să salvați parametrii acestuia pe disc, astfel încât, dacă este necesar, să puteți reveni ulterior la el, să îl utilizați într-un alt program, să comparați cu alte modele, etc În plus, ar putea fi , veți dori să salvați punctele de control la intervale regulate în timpul antrenamentului, astfel încât, dacă computerul se blochează, antrenamentul să poată continua de la ultimul punct de control, mai degrabă decât să o luați de la zero, TensorFlow face salvarea și restaurarea modelul foarte ușor Doar creați un nod la sfârșitul fazei de construire (după ce toate nodurile variabile sunt create); apoi, la runtime, apelați metoda nodului ori de câte ori doriți să salvați modelul, trecându-i sesiunea și calea către fișierul punct de control: = '( +,], , ), = ) = O = O O : în răngi : ' I == : punct de control la fiecare epocă = Restaurarea modelului este la fel de ușoară: creați un obiect la sfârșitul fazei de construire, ca înainte, dar apoi la începutul fazei de rulare, în loc să inițializați variabile folosind un nod de inițializare, apelați metoda obiectului: Partea II Rețele neuronale și învățarea profundă În mod implicit salvează și restaurează toate variabilele sub propriile nume, dar dacă sunteți interesat de mai mult control, atunci puteți specifica ce variabile să salvați sau să restaurați și ce nume să utilizați De exemplu, următorul obiect va salva sau restabili numai variabila numită := : ({ : }) Implicit, metoda salvează structura graficului într-un al doilea fișier cu același nume și extensie Puteți încărca structuri la un grafic folosind metoda Metoda specificată adaugă graficul la graficul standard și returnează o instanță care poate fi utilizată pentru a restabili starea graficului (adică, valorile variabilelor): = :t \ : O : [ ] Acest lucru vă permite să restaurați complet modelul salvat, inclusiv structura graficului și a valorilor variabilelor, fără a fi nevoie să găsiți codul care l-a construit Așa că acum avem un grafic de calcul care antrenează un model de regresie liniară folosind gradient mini-batch coborâre și salvează punctele de control la intervale regulate Sună complicat, nu-i așa? Cu toate acestea, ne bazăm în continuare pe o funcție pentru a vizualiza progresul antrenamentului Există o modalitate mai eficientă: instrumentul TensorBoard Dacă îi furnizați statisticile de antrenament, apoi va afișa vizualizări interactive elegante ale datelor statistice (să zicem, curbe de învățare) în browserul dvs De asemenea, puteți oferi TensorBoard o definiție de grafic și va oferi o interfață excelentă pentru a-l vizualiza Acest lucru este foarte util pentru identificarea erorilor din grafic, găsirea blocajelor etc e Capitolul Introducere în TensorFlow | Primul pas implică ajustarea ușoară a programului, astfel încât să scrie definiția graficului și statisticile de antrenament - de exemplu, o eroare MSE - într-un director de jurnal din care va citi TensorBoard Trebuie să utilizați un director de jurnal diferit de fiecare dată când rulați programul, în caz contrar, TensorBoard va îmbina statisticile din diferite rulări, ceea ce va strica vizualizările Cea mai simplă soluție este să includeți un marcaj de timp în numele directorului de jurnal Adăugați următorul cod la începutul programului: Apoi adăugați următorul cod la sfârșitul etapei de construire: prima linie creează un nod în grafic care va calcula valoarea MSE și o va scrie într-un șir de jurnal binar compatibil cu TensorBoard, numit A doua linie de cod creează un obiect care va fi folosit pentru a scrie rezumate în fișierele jurnal în interiorul directorului de jurnal Primul parametru specifică calea către directorul de jurnal (în acest caz ceva de genul relativ la directorul curent) Al doilea (parametru opțional) este graficul pe care doriți să îl randați Noul obiect creează un director de jurnal dacă nu există deja (și directoarele părinte, dacă este necesar) și scrie definiția graficului într-un fișier jurnal binar numit You will apoi trebuie să actualizați timpul de execuție pentru a evalua nodul în mod regulat în timpul antrenamentului (de exemplu, fiecare mini-lot) Acest lucru va produce un rezumat pe care îl puteți scrie în fișierul de evenimente folosind [ ] în interval , (Iată codul actualizat: Partea II Rețele neuronale și învățarea profundă Evitați înregistrarea statisticilor de învățare la fiecare pas individual de antrenament, deoarece acest lucru va încetini semnificativ învățarea În cele din urmă, la sfârșitul programului, este recomandabil să închideți: O Acum rulați programul: va crea un director de jurnal și va scrie un fișier în el, evenimente care conțin definiția graficului și valoarea MSE Deschideți o fereastră de shell de comandă, schimbați în directorul de lucru și introduceți comanda , pentru a vizualiza conținutul directorului de jurnal: $ cd $ML PATH Directorul dvs de lucru MO (de ex $HOME/ml) $ Îs tf logs/run* total -rw-r—r— ageron staff Sep : evenimente out tfevents mymac Rularea programați a doua oară, ar trebui să vedeți un al doilea director în director: $ Îs tf logs/ total drwxr-xr-x ageron staff Sep : run- drwxr-xr-x ageron staff Sep : rulați- Grozav! Este timpul să porniți serverul TensorBoard Dacă ați creat un mediu virtualenv, apoi activați-l și apoi porniți serverul cu comanda, îndreptându-l către directorul rădăcină de jurnal Următoarea comandă pornește serverul web TensorBoard care ascultă pe port („goog” inversat) ): $ source env/bin/ activate $ tensorboard logdir tf logs/ Pornirea TensorBoard pe port (Puteți naviga la http:// : ) Deschideți un browser și navigați la (sau ) Bun venit la TensorBoard! În fila Evenimente, ar trebui să vedeți elementul MSE din dreapta Făcând clic pe acesta, se va afișa graficul MSE în timpul antrenamentului pentru ambele alergări (Fig ) Puteți marca ce alergări doriți să vedeți, măriți sau micșorați, plasați cursorul peste urmă pentru a vizualiza detalii, etc Q Spirt ol undecscores Q Dete download links Horizontai Axla STEP RELATIVE WALL Rum tUfr O O O OS S run- MSE B ; EVIL n*b W/ "W WedJuib, SHu grodicnt predictions y theta -k ' graditnt C~ -gradtont X cop ( , reuse= (relu in de >= )) cop: alu app ( a ) output = tf add (relus , nam = ) Capitolul Noțiuni de bază cu TensorFlow | Graficul rezultat este ușor diferit de graficul anterior, deoarece variabila partajată este în interiorul primului element al ReLU (Fig ) ( reluj relu N relu ] "* ( gfkM I Aceasta completează introducerea în TensorFlow În capitolele următoare, vom discuta subiecte mai avansate, în special, numeroase operații legate de rețele neuronale profunde, rețele neuronale convoluționale și rețele neuronale recurente, ca precum și scalarea TensorFlow folosind multithreading, cozi, multe GPU și multe servere Care sunt principalele avantaje ale creării unui grafic de calcul în loc de a efectua calcule direct Care sunt principalele dezavantaje Este un operator echivalent cu un operator Este un operator echivalent cu un operator Este este posibil să rulați două grafice de calcul în aceeași sesiune Dacă creați un grafic care conține variabila, atunci rulați două fire și deschideți o sesiune în fiecare fir folosind același grafic, fiecare sesiune va avea propria copie a variabilei sau va fi partajată schimbare enna? Ce se întâmplă atunci când rulați un grafic pentru a evalua o operație care depinde de un substituent, dar care nu transmite valoarea acestuia? Ce se întâmplă dacă operațiunea nu depinde de un substituent? Partea a II-a Rețele neuronale și învățarea profundă Este posibil să se transmită valoarea de ieșire a oricărei operațiuni sau doar valorile substituenților atunci când rulează un grafic? Cum poate fi setată o variabilă la orice valoare dorită (în timpul rulării)? De câte ori diferențierea automată în modul invers trebuie să parcurgă graficul pentru a calcula gradienții funcției de cost în raport cu variabilele? Dar diferențierea automată în modul direct? Dar diferențierea simbolică? Implementați un model de regresie logistică de coborâre a gradientului mini-loc folosind TensorFlow Train și evaluați-l pe setul de antrenament (introdus în capitolul ) Încercați să adăugați toate decorațiunile enumerate mai jos o Definiți un grafic în interiorul funcției care poate fi reaplicat cu ușurință o Folosind , salvați punctele de întrerupere la intervale regulate în timpul antrenamentului și la sfârșitul antrenamentului, salvați modelul final o Restabiliți ultimul punct de control la pornire dacă antrenamentul a fost întrerupt o Definiți un grafic folosind spații de nume, astfel încât graficul să arate bine în TensorBoard o Adăugați rezumate pentru a vizualiza curbele de învățare în TensorBoard despre Încercați să modificați niște hiperparametri, cum ar fi rata de învățare sau dimensiunea mini-lot și uitați-vă la forma curbei de învățare Soluțiile pentru exercițiile date sunt disponibile în Anexa A Capitolul Introducere cu TensorFlow | CAPITOLUL INTRODUCERE ÎN REȚELE NEURALE ARTIFICIALE Păsările ne-au inspirat să zburăm, brusturele ne-au inspirat fixarea cu velcro, iar natura însăși a contribuit la multe alte invenții În acest caz, atunci când căutați în mod creativ modalități de a construi o mașină inteligentă, este destul de logic să ne uităm la arhitectura creierului Aceasta este ideea cheie care a stat la baza Cu toate acestea, deși aspectul aeronavelor a fost inspirat de păsări, acestea nu trebuie să bată din aripi În mod similar, ANN-urile au devenit treptat din ce în ce mai diferite de rudele lor biologice Unele cercetătorii chiar susțin că ar trebui să renunțăm cu totul la analogia biologică (de exemplu, spunând „unități” în loc de „neuroni”) pentru a nu ne limita creativitatea la sisteme plauzibile din punct de vedere biologic ANN-urile sunt în centrul învățării profunde Sunt versatile, puternice și scalabile, făcându-le ideale pentru rezolvarea problemelor complexe ML, cum ar fi clasificarea miliarde de imagini (cum ar fi instrumentul Google Pictures), suport pentru serviciile de recunoaștere a vorbirii (cum ar fi Siri de la Apple), recomandarea celor mai bune videoclipuri pentru sute de milioane de oameni să le vizioneze în fiecare zi (cum ar fi YouTube) sau învățarea să câștige campionul mondial în jocul Go, cercetând milioane de jocuri din trecut și apoi jucând împotriva ei înșiși (AlphaGo de la DeepMind) În acest capitol, vom introduce rețelele neuronale artificiale, începând cu un scurt tur al celor mai vechi arhitecturi ANN idei inspirate din biologie, dar nu fi le este frică să creeze modele biologic nerealiste, cu condiția ca acestea să funcționeze singure acceptabile, folosind TensorFlow pentru a rezolva problema de clasificare a cifrelor MNIST (vezi capitolul ) McCulloch și matematicianul Walter Pitts În articolul său de referință McCulloch și Pitts au prezentat un model de calcul simplificat al modului în care neuronii biologici pot lucra împreună pentru a efectua calcule complexe folosind Aceasta a fost prima arhitectură de rețea neuronală artificială După cum vom vedea, multe alte arhitecturi au fost create de atunci în curând ar fi vorbit cu mașini cu adevărat inteligente Anii , interesul pentru ANN-uri a reînviat pe măsură ce s-au inventat noi arhitecturi de rețea și s-au dezvoltat tehnici de învățare mai bune Dar până în anii , majoritatea cercetătorilor au favorizat tehnici alternative puternice de ML, cum ar fi mașinile cu vector de suport (vezi capitolul ), deoarece păreau pentru a oferi rezultate mai bune și a avut teoretic mai riguros fundamente În cele din urmă, vedem acum un alt val de interes pentru ANN-uri Se va atenua acest val ca și cele precedente? Există mai multe motive întemeiate să credem că situația este diferită aici și că va avea un impact mult mai puternic asupra vieții noastre În prezent, există o cantitate imensă de date disponibile pentru antrenarea rețelelor neuronale, iar pentru probleme foarte mari și complexe, ANN-urile depășesc adesea alte tehnici ML Creșterea uimitoare a puterii de calcul de-a lungul anilor face posibilă antrenarea rețelelor neuronale mari într-un timp rezonabil of Ideas Immanent in Nervous Activity” de McCulloch și W Pitts (an) Partea II Rețele neuronale și învățare profundă oferind industriei jocurilor un milion de unități de GPU-uri puternice Algoritmii de învățare au fost îmbunătățiți Pentru a fi corect, diferă doar marginal de algoritmi utilizate în anii , dar ajustările relativ mici efectuate au avut un impact pozitiv puternic Unele dintre limitările teoretice ale ANN-urilor au fost benefice în practică sunt cel mai probabil ar fi fost la optima locală, dar s-a dovedit că, în realitate, această situație apare destul de rar (sau dacă se întâmplă, este de obicei destul de aproape de optimul global) ANN-urile par să fi intrat într-o rundă eficientă de finanțare și dezvoltare, obținând mai multe și mai multă atenție și investiții în ei, ducând la mai multă dezvoltare și chiar mai multe produse uimitoare Neuroni biologici Înainte de a discuta despre neuronii artificiali, să aruncăm o privire rapidă la ce este un neuron biologic (Fig ) Acest aspect neobișnuit este o celulă găsită în principal în cortexul cerebral al animalele (să zicem, creierul tău) constă dintr-o celulă care conține un nucleu și majoritatea componentelor complexe ale celulei, precum și multe extensii de ramificare numite , plus o extensie foarte mare numită lungimea axonului poate fi mai mare decât corpul celulei, ambele mai multe ori si de zeci de mii de ori iar spre final, axonul se desparte in multe ramuri, numite , iar in varful acestor ramuri sunt structuri foarte mici, numite (G) sau pur si simplu, care se leaga de dendrite (sau direct de corpul celular) al altor neuroni Prin astfel de sinapse, neuronii biologici primesc de la alți neuroni impulsuri electrice scurte numite impulsuri electrice scurte, numite în câteva milisecunde Când un neuron primește suficiente semnale de la alți neuroni în câteva milisecunde, emite propriile semnale o rețea de miliarde de neuroni, fiecare conectat de obicei la mii de alți neuroni O rețea vastă de neuroni destul de simpli poate efectua calcule foarte complexe, la fel cum un furnicar complex poate apărea din eforturile combinate ale furnicilor simple o unele părți ale creierului au fost cartografiate și se pare că neuronii sunt adesea organizați în straturi succesive (fig ) număr de intrări binare (pornit/oprit) și o ieșire binară Desen de Bruce Blaus Reprodus din În contextul învățării automate, expresia „rețele neuronale” se referă în cele mai multe cazuri la ANN-uri, nu la BNN Partea II Rețele neuronale și învățarea profundă Un neuron artificial pur și simplu își declanșează ieșirea atunci când mai mult de un anumit număr de intrări sunt active McCulloch și Pitts au arătat că, chiar și cu un astfel de model simplificat, este posibil să se construiască o rețea de neuroni artificiali care evaluează orice afirmație logică dorită De exemplu, să construim mai multe ANN-uri care efectuează o varietate de calcule logice (Fig intrarea sa Primul rețeaua din stânga este doar o funcție de mapare a identității: dacă neuronul A este activat, atunci neuronul C este și el activat (pentru că primește două intrări de la neuronul A), dar dacă neuronul A este dezactivat, atunci neuronul C este și el dezactivat C = A A -B Imaginea disecției cortexului cerebral a lui Santiago Ramón y Cajal (proprietate publică) Reproducere deno of / Capitolul Introducere în rețelele neuronale artificiale | A doua rețea efectuează o operațiune logică „ȘI”: neuronul C este activat numai atunci când atât neuronul A, cât și neuronul B sunt activați (un singur semnal de intrare nu este suficient pentru a activa neuronul C) A treia rețea efectuează o operație logică „SAU”: neuronul C este activat dacă este activat fie neuronul A, fie neuronul B (sau ambele) În cele din urmă, dacă presupunem că conexiunea de intrare este capabilă să suprime activitatea neuronului (ca și în cazul neuronilor biologici), atunci a patra rețea calculează o afirmație logică ceva mai complexă: neuronul C este activat numai dacă neuronul A este activ, iar neuronul B este dezactivat Dacă neuronul A este activ tot timpul, atunci se obține o operație logică NOT: neuronul C este activ când neuronul B este dezactivat, și invers Vă puteți imagina cu ușurință cum astfel de rețele pot fi combinate pentru a calcula expresii logice complexe (aruncați o privire la exercițiile de la sfârșitul capitolului) este una dintre cele mai simple arhitecturi ANN, concepută de Frank Rosenblatt în Este bazat pe un uşor diferit un neuron artificial (Fig ), care se numește ( ld Un - J : acum intrările și ieșirile sunt numere (mai degrabă decât valori binare pornit/oprit), în plus față de fiecare conexiune de intrare există o greutate asociată Elementul LTU calculează suma ponderată a intrărilor sale (z = w x + w x + + wnxn = w x), apoi se aplică sumei rezultate și produce rezultatul: /iw(x) = pas (z) = pas (wT x) Partea II Rețele neuronale și învățare profundă Cea mai comună funcție pas folosită în perceptroni , este dată în ecuația Uneori funcția semn (sau ; tel ) heaviside (z) = , if z sgn (z) = , if , if + , if z Un singur element LTU poate fi utilizat pentru clasificarea binară liniară simplă Calculează o combinație liniară de intrări și dacă rezultatul depășește un anumit prag, apoi returnează o clasă pozitivă, altfel negativă (similar cu un clasificator bazat pe regresia logistică sau o mașină de suport liniar vector) De exemplu, puteți utiliza un singur element LTU pentru a clasifica florile de iris pe baza lungimii și lățimii petalelor (adăugând, de asemenea, o caracteristică suplimentară de părtinire x = , așa cum am făcut-o în capitolele anterioare) Învățarea unui element LTU înseamnă găsirea valorilor corecte pentru w , Wj și w (vom discuta despre algoritmul de învățare în scurt timp) Perceptronul constă dintr-un singur strat de elemente LTU , cu fiecare neuron conectat la toate intrările Astfel de conexiuni sunt adesea reprezentate folosind neuroni speciali end-to-end numiți (neuroni de intrare): pur și simplu trec la ieșire orice primesc la intrare În plus, de regulă, o părtinire suplimentară se adaugă caracteristica (x \u d) Această părtinire caracteristică este de obicei reprezentată folosind un tip special de neuron numit ( i ) care doar emite tot timpul Figura arată un perceptron cu două intrări și trei ieșiri Un astfel de perceptron este capabil să clasifice mostre simultan în trei clase binare diferite, ceea ce îl face un clasificator cu mai multe ieșiri Numele „perceptron” folosit uneori pentru a se referi la o rețea minusculă cu un singur LTU Capitolul Introducere în rețelele neuronale artificiale Ieșiri Stratul de ieșire Stratul de intrare Deci, cum învață un perceptron? Algoritmul de învățare a perceptronului propus de Frank Rosenblatt a fost inspirat în mare măsură de Donald Hebb, în ​​cartea sa The Organization of Behavior, publicată în , că atunci când un neuron biologic provoacă frecvent declanșarea unui alt neuron, relația dintre acești doi neuroni se amplifică Mai târziu, ideea a fost rezumat de Sigrid Level în fraza sa captivantă: „Celule care ard împreună, sârmă împreună ” Regula a devenit ulterior cunoscută sub numele de regula Hebbian (sau ); adică greutatea conexiunii dintre doi neuroni crește ori de câte ori dau aceeași ieșire la ieșirile lor Perceptronii sunt antrenați folosind o variantă a acestei reguli, care ține cont de eroarea făcută de rețea; nu întărește conexiunile care conduc la o ieșire greșită Mai precis, perceptronul este alimentat câte o probă de antrenament odată, iar pentru fiecare probă își produce predicțiile Pentru fiecare neuron de ieșire care produce o predicție incorectă, ponderile conexiunilor din intrările care au contribuit la predicția corectă sunt mărite Regula descrisă în ecuație - ponderea conexiunii dintre neuronul de intrare - al-lea și neuronul de ieșire lea Partea II Rețele neuronale și învățarea profundă Xj - a valoare de intrare a antrenamentului curent proba Y) - ieșirea celui de-al-lea neuron de ieșire pentru eșantionul de antrenament curent lea neuron de ieșire pentru eșantionul de antrenament curent a/ - rata de învățare Limita de decizie a fiecărui neuron de ieșire este liniară, astfel încât perceptronii sunt incapabili să învețe pe modele complexe ( similar cu clasificatorii bazați pe regresia logistică) Cu toate acestea, dacă eșantioanele de antrenament sunt separabile liniar, atunci Rosenblatt demonstrează că algoritmul va converge către soluție e Se numește Biblioteca Scikit-Learn oferă o clasă care implementează o rețea cu o singură LTU Poate fi folosită în același mod la care te-ai putea aștepta, de exemplu, cu un set de date (introdus în capitolul încărcare iris Percaptron = O X = iris data[: , ] lungimea petalei, lățimea petalei y = (іr 's t rget == ) și stype (pr Lat) iris bristly? perclf = Psrceptron (aleatoriu :tat;? = ) Lf fit( , y) d = pei f pre ict Este posibil să descoperiți că algoritmul de învățare a perceptronului este foarte asemănător cu coborârea gradientului stocastic De fapt, utilizarea clasei ttron a lui Scikit-Learn este echivalentă la utilizarea co următorii hiperparametri: îs , , (rata de învățare) și : :înalty: